<div> Совместное распознавание текста и оформления в исторических документах на русском языке</div> OpenBooks

Журнал

Научно-технический вестник информационных технологий, механики и оптики

УДК:004.932.75

Номер:3 (149)

Аннотация:

Рассмотрена сквозная, свободная от сегментации архитектура Document Attention Network (DAN), на примере распознавания исторических документов на русском языке. Архитектура DAN способна распознать текст или макет документа любого размера и вывести распознанный текст, а также логические области макета оформления. Выполнено сравнение полученных результатов экспериментов с набором данных Digital Peter, по которому обучены модели распознавания рукописного текста, имеющие высокую точность распознавания на уровне строк. Набор данных состоит из документов рукописей Петра Великого. Эталонные данные для архитектуры DAN представлены в соответствии со сложной схемой формата XML, которая обеспечила точное определение макета оформления и текстовых областей. Получены следующие результаты распознавания текста на уровне страницы: 18,71 % для коэффициента ошибок символов (Character Error Rate, CER), 39,7 % — коэффициента ошибок в словах (Word Error Rate, WER), 14,11 % при упорядочении макета слов (Layout Ordering Error Rate, LOER) и 66,67 % для средней точности (mean Average Precision, mAP).

Совместное распознавание текста и оформления в исторических документах на русском языке

Научно-технический вестник информационных технологий, механики и оптики

Аннотация:

Ключевые слова:

Постоянный URL

Статьи в номере

Совместное распознавание текста и оформления в исторических документах на русском языке

Научно-технический вестник информационных технологий, механики и оптики

Аннотация:

Ключевые слова:

Постоянный URL

Поделиться

Статьи в номере